45 research outputs found

    Composite repetition-aware data structures

    Get PDF
    In highly repetitive strings, like collections of genomes from the same species, distinct measures of repetition all grow sublinearly in the length of the text, and indexes targeted to such strings typically depend only on one of these measures. We describe two data structures whose size depends on multiple measures of repetition at once, and that provide competitive tradeoffs between the time for counting and reporting all the exact occurrences of a pattern, and the space taken by the structure. The key component of our constructions is the run-length encoded BWT (RLBWT), which takes space proportional to the number of BWT runs: rather than augmenting RLBWT with suffix array samples, we combine it with data structures from LZ77 indexes, which take space proportional to the number of LZ77 factors, and with the compact directed acyclic word graph (CDAWG), which takes space proportional to the number of extensions of maximal repeats. The combination of CDAWG and RLBWT enables also a new representation of the suffix tree, whose size depends again on the number of extensions of maximal repeats, and that is powerful enough to support matching statistics and constant-space traversal.Comment: (the name of the third co-author was inadvertently omitted from previous version

    Practical Evaluation of Lempel-Ziv-78 and Lempel-Ziv-Welch Tries

    Full text link
    We present the first thorough practical study of the Lempel-Ziv-78 and the Lempel-Ziv-Welch computation based on trie data structures. With a careful selection of trie representations we can beat well-tuned popular trie data structures like Judy, m-Bonsai or Cedar

    Contribuciones a las bases de datos no convencionales

    Get PDF
    El advenimiento de las ciencias de la computación a todos los ámbitos de la vida moderna, ha exigido el desarrollo de aplicaciones que satisfagan los requerimientos de distintos tipos de usuarios, desde campos muy dispares, adaptándose a todo tipo de exigencias para lograr un alcance masivo. Claramente, esto implica lograr manipular eficientemente datos no convencionales muy disímiles como: huellas digitales, imágenes, audio, secuencias de ADN, texto, video, etc. Como las soluciones tradicionales no suelen hacer frente a tales requerimientos, es necesario utilizar depósitos especializados y búsquedas no exactas sobre estos tipos de datos. Además de proveer una respuesta rápida y adecuada a dichas demandas, es necesario un uso eficiente del espacio disponible, y al considerar bases de datos masivas, las estructuras en particular serán estructuras de datos con I/O eficiente. Las Bases de Datos Métricas son uno de los modelos generales en los cuales se pueden utilizar estructuras de datos especializadas que contemplen estos aspectos. Los lenguajes de consulta no siempre poseen el poder expresivo necesario para reflejar las consultas consideradas de interés. Así, nuestra investigación pretende contribuir a consolidar este nuevo modelo de bases de datos desde varias perspectivas.Eje: Bases de datos y Minería de datos.Red de Universidades con Carreras en Informática (RedUNCI

    Bases de datos no convencionales : Índices y operaciones

    Get PDF
    Debido a que en la actualidad se generan gran cantidad de datos digitales, desde fuentes muy disimiles, los repositorios especializados en datos no estructurados se vuelven cada vez más necesarios. Por este motivo, los mismos deben adaptarse rápidamente, para administrar de manera eficiente el gran volumen de datos generados, al igual que el tipo de requerimientos al que son sometidos los mismos; éstos pueden ser tan dispares como los tipos de datos que puede ser necesario administrar, dado que pertenecen a campos muy diferentes. Para ello, se investigan distintos aspectos relacionados con este tipo de bases de datos, como la administración del espacio disponible, que se vuelve crucial debido a la gran cantidad de datos que se debe manipular; formas más sofisticadas de búsqueda sobre las mismas, que permitan enfrentar tales requerimientos; optimización de estos depósitos, o desarrollo de nuevos, considerando incluso la arquitectura del procesador. Un modelo de base de datos no convencionales que se adapta a tales requerimientos, en el cual se pueden utilizar métodos de acceso que contemplen estos aspectos, son las Bases de Datos Métricas. Esta investigación pretende contribuir a la madurez de este nuevo modelo de bases de datos considerando distintas perspectivas.Eje: Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

    Bases de datos no convencionales: índices y lenguajes de consulta

    Get PDF
    En la actualidad es muy común suministrar una imagen a un buscador y esperar que este localice, imágenes parecidas a la provista. Escenarios como este requieren el desarrollo de aplicaciones capaces de manipular datos no convencionales como imágenes, audio, video, secuencias de ADN, texto, huellas digitales, etc., almacenarlos y obtener información desde ellos, para responder eficientemente consultas que realicen los usuarios. Claramente, es necesario utilizar depósitos especializados de datos y técnicas de búsquedas no exactas sobre ellos, porque las soluciones tradicionales no permiten hacer frente a tales requerimientos. En este ámbito es muy raro comparar por igualdad exacta, siendo generalmente las consultas por objetos similares a uno dado. Por lo tanto, ademas de requerir una respuesta rápida y adecuada y un eficiente uso del espacio disponible, es necesario utilizar modelos generales en los cuales se puedan utilizar estructuras de datos especializadas que contemplen estos aspectos, como lo son las Bases de Datos Métricas y que si se consideran bases de datos masivas, dichas estructuras en particular sean, en particular, estructuras de datos con I/O eficiente. Otro aspecto importante son los lenguajes de consulta, necesarios para la manipulación de una base de datos, que no siempre poseen el poder expresivo necesario para expresar las consultas consideradas de interés en este modelo. Así, nuestra investigación pretende contribuir a la consolidación de este nuevo modelo de bases de datos.Eje: Base de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI

    Bases de datos no convencionales: índices y lenguajes de consulta

    Get PDF
    En la actualidad es muy común suministrar una imagen a un buscador y esperar que este localice, imágenes parecidas a la provista. Escenarios como este requieren el desarrollo de aplicaciones capaces de manipular datos no convencionales como imágenes, audio, video, secuencias de ADN, texto, huellas digitales, etc., almacenarlos y obtener información desde ellos, para responder eficientemente consultas que realicen los usuarios. Claramente, es necesario utilizar depósitos especializados de datos y técnicas de búsquedas no exactas sobre ellos, porque las soluciones tradicionales no permiten hacer frente a tales requerimientos. En este ámbito es muy raro comparar por igualdad exacta, siendo generalmente las consultas por objetos similares a uno dado. Por lo tanto, ademas de requerir una respuesta rápida y adecuada y un eficiente uso del espacio disponible, es necesario utilizar modelos generales en los cuales se puedan utilizar estructuras de datos especializadas que contemplen estos aspectos, como lo son las Bases de Datos Métricas y que si se consideran bases de datos masivas, dichas estructuras en particular sean, en particular, estructuras de datos con I/O eficiente. Otro aspecto importante son los lenguajes de consulta, necesarios para la manipulación de una base de datos, que no siempre poseen el poder expresivo necesario para expresar las consultas consideradas de interés en este modelo. Así, nuestra investigación pretende contribuir a la consolidación de este nuevo modelo de bases de datos.Eje: Base de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI

    Aportes al modelo de bases de datos métricas

    Get PDF
    La computación se ha vuelto indispensable en cualquier ámbito de la vida moderna: ciencias, arte, educación, finanzas, diversión, etc., por lo que se hizo prioritario el desarrollo de aplicaciones capaces de manipular casi cualquier tipo de datos. Para lograr un alcance masivo, muchas de estas aplicaciones son cada vez más intuitivas; por ejemplo, es común ingresar una imagen o un trozo de canción a un buscador y esperar que éste muestre imágenes o canciones parecidas a la provista. Claramente, para lograr la manipulación eficiente de datos como imágenes, audio, video, secuencias de ADN, texto, huellas digitales, etc., es necesario utilizar depósitos especializados y técnicas de búsquedas no exactas sobre ellos, ya que las soluciones tradicionales no permiten hacer frente a tales requerimientos. Las Bases de Datos Métricas son uno de los modelos generales en los cuales se pueden utilizar estructuras de datos especializadas que contemplen estos aspectos. Además de proveer una respuesta rápida y adecuada, será necesario un eficiente uso del espacio disponible, y si se consideran bases de datos masivas, dichas estructuras en particular serán estructuras de datos con I/O eficiente. Otro aspecto importante son los lenguajes de consulta, necesarios para la manipulación de una base de datos, que no siempre poseen el poder expresivo necesario para reflejar las consultas consideradas de interés en este modelo. Así, nuestra investigación pretende contribuir a la consolidación de este nuevo modelo de bases de datos.Eje: Bases de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI

    Bases de datos no convencionales: índices y lenguajes de consulta

    Get PDF
    En la actualidad es muy común suministrar una imagen a un buscador y esperar que este localice, imágenes parecidas a la provista. Escenarios como este requieren el desarrollo de aplicaciones capaces de manipular datos no convencionales como imágenes, audio, video, secuencias de ADN, texto, huellas digitales, etc., almacenarlos y obtener información desde ellos, para responder eficientemente consultas que realicen los usuarios. Claramente, es necesario utilizar depósitos especializados de datos y técnicas de búsquedas no exactas sobre ellos, porque las soluciones tradicionales no permiten hacer frente a tales requerimientos. En este ámbito es muy raro comparar por igualdad exacta, siendo generalmente las consultas por objetos similares a uno dado. Por lo tanto, ademas de requerir una respuesta rápida y adecuada y un eficiente uso del espacio disponible, es necesario utilizar modelos generales en los cuales se puedan utilizar estructuras de datos especializadas que contemplen estos aspectos, como lo son las Bases de Datos Métricas y que si se consideran bases de datos masivas, dichas estructuras en particular sean, en particular, estructuras de datos con I/O eficiente. Otro aspecto importante son los lenguajes de consulta, necesarios para la manipulación de una base de datos, que no siempre poseen el poder expresivo necesario para expresar las consultas consideradas de interés en este modelo. Así, nuestra investigación pretende contribuir a la consolidación de este nuevo modelo de bases de datos.Eje: Base de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI

    Run-Length Compressed Indexes Are Superior for Highly Repetitive Sequence Collections

    Get PDF
    A repetitive sequence collection is one where portions of a base sequence of length n are repeated many times with small variations, forming a collection of total length N. Examples of such collections are version control data and genome sequences of individuals, where the differences can be expressed by lists of basic edit operations. This paper is devoted to studying ways to store massive sets of highly repetitive sequence collections in space-efficient manner so that retrieval of the content as well as queries on the content of the sequences can be provided time-efficiently. We show that the state-of-the-art entropy-bound full-text self-indexes do not yet provide satisfactory space bounds for this specific task. We engineer some new structures that use run-length encoding and give empirical evidence that these structures are superior to the current structures

    Flexible Indexing of Repetitive Collections

    Get PDF
    Highly repetitive strings are increasingly being amassed by genome sequencing experiments, and by versioned archives of source code and webpages. We describe practical data structures that support counting and locating all the exact occurrences of a pattern in a repetitive text, by combining the run-length encoded Burrows-Wheeler transform (RLBWT) with the boundaries of Lempel-Ziv 77 factors. One such variant uses an amount of space comparable to LZ77 indexes, but it answers count queries between two and four orders of magnitude faster than all LZ77 and hybrid index implementations, at the cost of slower locate queries. Combining the RLBWT with the compact directed acyclic word graph answers locate queries for short patterns between four and ten times faster than a version of the run-length compressed suffix array (RLCSA) that uses comparable memory, and with very short patterns our index achieves speedups even greater than ten with respect to RLCSA
    corecore